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@ Mehrprozessorbetrieb in einem Multimedia-Signalprozessor 

(§7) Urn eina hone Leistungsfahigkeit bei niedrigen Kosten zu 
arzieien, verwendet ein integrierter Digitaiprozessor eine 
Architektur, die sowohi einen Universal-Prozessor (210) a Is 
auch einen Vektorprozessor (220) umfaBt. Oer integrierte 
Digitaisignalprozessor umfaSt auch ein Cache-Untersystem 
(230). einen erst en Bus und einen zwehan Bus. Das Cache- 
Untersystem (230) bietet eine Cachespeicherung und eine 
Datenleitung fur die Prozessoren und Busse. Mehrere simui- 
tan einrichtbare Kommunikationsbahnen konnen fur die 
Prozessoren und Busse in dern Cache-Untersystem verwen- 
det werden. Ferner werden in dern Cache-Untersystem 
gleichzertige Less- und Schreibvorginge auf einem Cache- 
speicher unterstutzt. 



Vifvitftungsktm 



UnivtrHl- 



V2 



r 



m 



l 












I Oatut* 


BftfthU- 


JCacfct 






2§2 



Vtktor- 
Prozsswr 



2 S6-wMs6-fc4, 



_22Si 



Cad*-Sftutn*>g 

m 







Cadw 




222 


22k 



SYSTEM- 
Z37E3ER 



V0tl-OU5>l£X- ^243 



IA 
CO 



Q 



PRQZESSCR 



-2(5 



WTERPURT- 



Ft 



r 2SZ 



SO«rnST2JL£ 



AK£3£ 
TON 

TELSFCN 



DMA- 

STSUSttXa 



2S7 



sowrrsrau 

FOR 

L0KALEHSUS 



25 



2Sfl 



SPEOiES- 
57EUERUN6 



25a 

SPBOBSUS 



Die folgenden Angaben *lnd den vom Anmelder eingereichten Unterlagen entnommen 

BUND^SDRUCKERP! 01.98 802 013/623 



22/24 



£DE 197 35 981 Al 0 

Beschreibung 

Die Erfindung bezieht sich auf Digitalsignal-Prozessoren und insbesondere auf asymmetrische Parallel-Dual- 
teilprozessingsysteme, die einen Universal-Prozessor und einen Vektorprozessor zum Handhaben von Vektor- 
5 daten umfassen. 

Eine Verschiedenheit von Digitalsignal-Prozessoren (DSPs) wird bei Multhnediaanwendungen verwendet, 
beispielsweise dem Codieren und Decodieren von Bild-, Ton- und Kommunikationsdaten. Ein Typ eines Digital- 
signalprozessors (DSP) weist eine f est zugeordnete Hardware zum Ansprechen eines bestimmten Problems auf, 
beispielsweise einer MPEG-Bild- bzw. MPEG-Video-Decodierung oder -Codierung. DSPs mit fest zugeordne- 

io ter Hardware bieten mit Blick auf die Kosten im allgemeinen eine hohe Leistungsfahigkeit, sind aber nur fur 
bestimmte Probleme verwendbar und nicht in der Lage, an andere Probleme angepafit zu werden oder hinsicht- 
lich Standards geandert zu werden. 

Programmierbare DSPs fuhren Programme aus, die Multimediaprobleme losen, und bieten eine groBere 
Flexibilitat als DSPs mit fest zugeordneter Hardware, da das Andern der Software fur einen programmierbaren 

15 DSP das geldste Problem andern kann. Ein Nachteil programmierbarer DSPs ist deren geringe Leistungsfahig- 
keit mit Blick auf die Kosten. Ein programmierbarer DSP weist typischerweise einen Aufbau ahnlich dem eines 
Universal-Prozessors auf und hat eine relativ geringe Verarbeitungs- bzw. Prozessingleistung. Die geringe 
Verarbeitungsleistung folgt im allgemeinen aus einem Versuch, die Kosten zu minimieren. Daher ist ein solcher 
DSP nicht vollstandig zufriedenstellend, da ein DSP mit geringer Leistung die Moglichkeit des DSP hindert, 

20 komplexere Multimediaprobleme anzusprechen, wie beispielsweise eine Echtzeh-Bildcodierung und -decodie- 
rung. 

Da ein Ziel fur programmierbare DSPs darin besteht; eine hohe Verarbeitungsleistung zum Ansprechen bzw. 
Adressieren von Multiraediaproblemen bei minimalen Kosten bereit zustellen, kdnnte man in einen solchen DSP 
eine Parallelverarbeitung aufnehmen, was ein bekannter Weg zum Erhohen^det yerarbeitungsleistung ist Eine 

25 Architektur fur eine Parallelverarberjung^hat ein "very long instfucdon^word"-{VIJW)-DSP bzw.JDSP fur sehr 
lange Befehlsworte, der durch eine groBe Anzahl von Funktionseinheiten gekennzeichnet ist, von denen die 
meisten verschiedene aber relativ einfache Aufgaben ausfuhren. Eine einzelne Anweisung bzw. ein einzelner 
Befehl fur einen VLIW-DSP kann 128 Byte lang oder langer sein und weist getrennte Teile auf. Jedes Teil kann 
durch getrennte Funktionseinheiten parallel ausgefuhrt werden. VLIW-DSP weisen eine sehr hohe Berech- 

30 nungs- bzw. Verarbeitungsleistung auf, da eine groBe Anzahl von Funktionseinheiten parallel betrieben werden 
kaniL VLIW-DSP sind auch relativ kostengunstig, da jede Funktionseinheit relativ klein und einfach aufgebaut 
ist Ein Problem hinsichtlich VLIW-DSPs ist jedoch die schlechte Leistungsfahigkeit beim Handhaben der 
Eingabe-/ Ausgabesteuerung, der Kommunikation mit einem Haupt- bzw. Hostcomputer und anderer Funktio- 
nen, die sich nicht selber die Fahigkeit zu einer parallelen Ausfuhrung in den Funktionseinheiten des VLIW-DSP 

35 verleihen. Zudem unterscheiden sich Programme fur VLIW von konventionellen Computerprogrammen und 
konnen schwierig zu entwickeln sein, da es an Programmierwerkzeugen und Programmierern mangelt, die mit 
VLIW-Softwarearchitekturen vertraut sind 

Die Aufgabe der vorliegenden Erfindung besteht darin, die Ineffizienz bei Digitalsignaiprozessoren und 
insbesondere asymmetrischen Parallel- Dual-Teilprozess- Systemen zu verringern. 

40 Diese Aufgabe wird durch einen Prozessor mit den Merkmalen gemaB Anspruch 1 gelost 
Vorteilhafte Ausgestaltungen sind Gegenstand von Unteranspruchen. 

Der Digitalsignalprozessor kombiniert insbesondere einen Universal-Prozessor mit einem Vektorprozessor, 
der parallel zu dem Universal-Prozessor betrieben werden kann. Der integrierte Digitalsignal-Prozessor ist in 
der Lage, eine hohe Leistungsfahigkeit bei niedrigen Kosten zu erzielen, da die beiden Prozessoren nur Auf ga- 

45 ben ausfuhren, die fur jeden Prozessor ideal liegen. Z. B. laBt der Universal-Prozessor ein Echtzeh-Betriebssy- 
stem Iaufen und fuhrt eine Gesamtsystemhandhabung durch, waiirend der Vektorprozessor zum Durch fuhren 
von Paraflelberechnungen unter Verwendung von Datenstrukturen verwendet wird, die als "Vektoren* bezeich- 
net werden. Ein Vektor ist eine Sammlung von Datenelementen, die typischerweise vom gieichen Typ sind. 
Bei einem Ausfuhrungsbeispiel umfaBt der Digitalsignalprozessor audi ein Cache-Subsystem bzw. Cache-Un- 

50 tersystem, einen ersten Bus und einen zweiten Bus. Der erste Bus wird Kir Hochgesc&wmdigkeitseinrichtungen, 
beispielsweise eine lokale Busschnittstelle, eine DMA-Steuereinrichtung, eine Hnhehensteuereinriditung und 
eine Speichersteuereinrichtung verwendet Der zweite Bus wird fur Einrichtungen mit einer geringen Geschwin- 
digkeit verwendet, beispielsweise einen Systemzeitgeber, eine UAPT (Anpassungsschaltung zur Umsetzung von 
paralleler zu serieller DatenubertragungX einen Bitstrom-Prozessor und eine Interrupt- bzw. Unterbrechungs- 

55 Steuereinheh. 

Das Cache-Subsystem kombiniert Cachefunktionen mit Vermittlungs- oder Datenfuhrungsfunktionen. Die 
Vermittlungsfunktionen ermdglichen mehrere Kommunikationswege zwischen den Prozessoren und Bussen, 
urn gleichzeitig betrieben werden zu konnen. Ferner ermoglicht das Cacheteil des ,Cache-Subsystems ein 
gleichzehiges Lesen und Schreiben im Cachespeicher. 
60 Die Erfindung wird nachstehend beispielsweise anhand der Zeichnung naher erlautert Es zeigen: 

Fig. 1 ein Blockdiagramm einer Multimediakarte gemaB einem Ausfuhrungsbeispiel; 

Fig. 2 ein Blockdiagramm eines Mulitmedia-Signalprozessors gemaB einem Ausfuhrungsbeispiel; 

Fig. 3 Beziehungen zwischen Prozessoren und Software oder Firmware in einem System, das einen Multime- 
diaprozessor gemaB einem Ausfuhrungsbeispiel umfaBt; 
65 Fig- 4 ein Blockdiagramm eines Cache-Untersystems gemaB einem Ausfuhrungsbeispiel ; 

Fig. 5 ein Speicherabbild bzw. einen Adressenumsetzer gemaB einem Ausfuhrungsbeispiel; 

Fig. 6 ein Blockdiagramm einer Datenpipeline bzw. Datenleitung, die bei einem Cache-Untersystem gemaB 
einem Ausfuhrungsbeispiel verwendet wird; 



DE 197 35 981 Aj^ 

Fig. 7 ein Blockdiagramm einer zweiten Datenpipeline, die bei einem Cache-Untersystem gemaB einem 
Ausfuhrungsbeispiel verwendet wird; und . 
Fig. 8 ein Blockdiagramm einer Adresspipeline, die bei einem Cache-Untersystem gemaB einem Ausfuhmngs- 

be ^ C Ve^nden t der ^leichen Bezugssymbole in verschiedenen Figuren zeigt ahnliche oder identische Merk- 

m GemaB einem Aspekt der Erfindung umfaBt ein Multimediaprozessor einen UniversaJ-Prozessor bzw. einen 
Prozessor fur einen aUgemeinen Zweck und einen Vektorprozessor, der entsprechend zum Trennen von Pro- 
gramm-Teaprozessen bzw. einem gereihten Programmcode parallel betrieben wird Der Umversal-Prozessor 
ffihrt wie die meisten konventioneilen Prozessoren fur aflgemeine Anwendungen Anweisungen bzw. Befenle 
aus, die typiscberweise skalare Daten manipuiieren bzw. handhaben. Solche Prozessoren smd zum Ausfuhren 
von Emgabe-/Ausgabe-(I/0)- und Steuerfunktionen geeignet Bei einigen Ausfuhrungsbeispielen weist der 
Universal-Prozessor eine begrenzte Vektorverarbeitungsfahigkeit von Datenelementen nut emer GroBe von 
mehreren Byte auf, die in ein Datenwort gepackt sind. Falls der Universal-Prozessor z. B. ein 32-Bit-Prozessor 
ist kann der Universal-Prozessor gemaB einiger Ausfuhrungsbeispiele vier Ein-Byte-Datenelemente sunultan 
verarbeiten. Jedoch macht eine Multimediaberechnung bzw. Multimediaverarbeitung, wie bespdswose erne 
Ton- und Bfld-Datenkompression und -dekompression viele wiederholte Berechnungen hmsichtlich Bildpunkt- 
anordnungen und Ketten aus Tondaten erf orderlich. Urn Realzeit- bzw. Echtzeit-Multimediaoperationen auszu- 
fuhren, muB ein Universal-Prozessor der skalare Daten £z. B. einen Bildpunktwert oder eine Tonamplitude pro 
Operand) oder nur kleine Vektoren handhabt, mit einer hohen Taktfrequenz betrieben werden. Im Gegensatz 
dazn fuhrt der Vektorprozessor Anweisungen aus, wo jeder Operand ein Vektor ist der mehrere Datenelemente 
enthalt (z. B mehrere Bildpunktwerte oder Tonamplituden). Dafaer kann der Vektroprozessor Echtzeit-Mulu- 
mediaoperationen mit einem Bruchteil der Taktfrequenz durchfuhren, die fur einen Universal-Prozessor erfor- 
derHchist,umdiegleicheFunkdonauszufuhren. ~ ^ ^ . \ . % ,,* * 

So bietet durch das Ermoglichen'einer effcrienten Teilung der Aufgaben, die fur eine Multimediaanwendung 
erforderlich sind, die Kombination aus einem programmierbaren Universal-Prozessor und einem Vektorprozes- 
sor mit Blick auf die Kosten eine bohe Leistungsfahigkeit Bei einem Aiisfuhrungsbeispiel fuhrt der Universal- 
Prozessoren ein Echtzeit-Betriebssystem aus, das fur eine Medien-Leiterplatte ("Kane") entwickelt wurde, das 
mit einem Host- bzw. Haupt-Computersystem kommunizierL Das Echtzeit-Betriebssystem kommumziert mit 
einem primaren Prozessor des Computersystems, stellt I/O- bzw. EIN/AUS-Einrichtungen em oder koppelt sie 
mit der Karte und wahlt Aufgaben, die der Vektorprozessor ausfuhrt Bei diesem Ausfuhrungsbeispiel )st der 
Vektorprozessor entworfen worden, die berechnungsmaBig intensiven Aufgaben durchzufuhren, wie erne Hand- 
habung groBer Datenblocke erforderlich machen, wahrend der Universal-Prozessor als der Haupt- bzw. Master- 
Prozessor fur den Vektorprozessor client Programmteilprozesse bzw. gereihte Codeabschmtte ernes Pro- 
gramms werden fur jeden Prozessor unter Verwendung eines konventioneilen Befehlssatzes bzw. Anweisungs- 
satzes geschrieben, was den Multimediaprozessor *programmiererfreundlich" macht. Die Programmierbarkeit 
ermdglicht daB der Multimedia-Prozessor eine Vielzafal verschiedener Multimediaaufgaben ausfuhren kann. 
Der Multimedia-Prozessor kann z. B. an ein neues ProtokoU einfach dadurch angepaBt werden, daB entweder 
seine Anwendungsprogramme oder seine Firmware geandert werden. Bei einem Ausfuhrungsbeispiel ist der 
Anweisungs- bzw. Befehlssatz ahnlich dem eines konventionelle RISC-Anweisungssatzes (RISC steht fur redu- 
ced instruction set computer" bzw. Computer mit reduziertem Anweisungssatz). 

GemaB einem anderen Aspekt teilen der Universal-Prozessor und der Vektorprozessor erne Vielzahl an 
verschiedenen auf dem Chip befindlichen und vom Chip getrennten Ressourcen bzw. Quellen, die durch emen 
einzelnen Adressraum zugreifbar sind. Ein Cache-Untersystem bzw. -Subsystem, das getrennte Daten- und 
Anweisungs-Caches fur jeden Prozessor implementiert bietet auch eine Verbindung vom Schaltplattentyp bzw. 
Scfaaltkartentyp zwischen einem lokalen Speicher und Ressourcen, wie beispielsweise einem Bitstrom-Prozes- 
sor einer universellen, asynchronen Empfanger-Sendereinheit fUART"), einem Direktzugnffsspeicher- 
(DMAVKontrofler bzw. einer Direktzugriffsspeicher-Steuereinrichtung, einer Schnittstefle fur einen lokalen Bus 
bzw einer lokalen Busschnittstelle und eine Codierer-DeoxiiereK ff CODEC>SchnittsteUe, die speicherabgebfl- 
dete Einrichtungen darstellen. Das Cache-Untersystem kann einTransaktions-orientiertes ProtokoU verwenden, 
das eine Zentrale bzw. Schaltplatte fur einen Datenzugriff auf die einzelnen Prozessoren und speicherabgebilde- 
ten Ressourcen implementiert bzw. umsetzt 

Fig. 1 steUt eine Multimediakarte 100 gemaB einem Ausfuhrungsbeispiel dar.Die Multimediakarte 100 umfaBt 
eine Leiterplatte, einen Multimedia-Prozessor 110 und eine Verbindungseinrichtung, die an einem lokalen Bus 
105 eines Host-Computersystems befestigt ist Bei einem beispielhaften Ausfuhrungsbeispiel ist der lokale Bus 
105 ein PCI-Bus; jedoch kann der lokale Bus 105 bei anderen Ausfuhrungsbeispielen ein Marken-Bus oder em 
Bus sein, der an irgendein gewunschtes ProtokoU angepaBt ist, wie beispielsweise die ISA- oder VESA-Buspro- 

^^er^Multimedia-Prozessor 110 verwendet einen lokalen Speicher 120, der auch auf der Multimediakarte 100 
angeordnet ist zum Speichern von Daten- und Programmanweisungea Der lokale Speicher 120 kann auch als 
ein Frame- bzw. Vollbildpuffer fur Bild- bzw. Videocodierungsanwendungen und Bild-Decodierungsanwendun- 
gen dienen. Beim beispielhaften Ausfuhrungsbeispiel kann der lokale Speicher 120 durch emen synchronen, 
dynamischen 512Kx32-Bit-Direktzugriffsspeicher (DRAM) reaiisiert bzw. implementiert werden. Tede des 
lokalen Speicherraums konnen auch durch einen statischen Emchip-Direktzugriffsspeicher ("SRAM") und emen 
Nurlesespeicher ("ROM") im Multimedia-Prozessor 110 implementiert werden. Tatsachlich braucht der lokale 
Speicher 120 nicht implementiert zu werden, falls ein EinchijvSpeicber vorgesehen wird, urn die Daten und 
Anweisungen der Multimediakarte 100 in ausreichendem MaBe zu halten. 

Zusatzlich zum Multimedia-Prozessor 110 und zum lokalen Speicher 120 umfaBt die Multimediakarte 100 
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einen Bildanalog-zu-digital-Wandler (ADC) 132, einen BUd-digitalzu-analog-Wandler (DAC) 134, einen Ton- 
ADC 142, einen Ton-DAC 144, einen Kommunikations-ADC 146 und einen Kommunikations-DAC 148. Jeder 
der Wandler 132, 134, 142, 144, 146 und 148 kann durcfa eine oder mehrere getrennte integrierte Schaltungen 
implementiert werden. Alteraativ konnen zwei oder mehr der Wandler 132, 134, 142, 144, 146 und 148 integriert 
auf einer einzelnen integrierten Schaltung vorgesehen werden. Z. B. kann eine einzeine integrierte Schaltung 
140, beispielsweise die AD 1843, die bei Analog Devices, Inc. verfugbar ist, die Funktionen der Wandler 142, 144, 
146 und 148 implementieren. 

Der Bild- bzw. Video- ADC 132; der beispielsweise durch eine integrierte KS0122-Schaltung implementiert 
werden kann, die von Samsung Semiconductor, Inc. erhaltlich ist, stellt eine Verbindung zu einer Videokamera 
oder einer anderen Quelle eines Bildsignals dar und digitalisiert das Video- oder Bildsignal in eine Reihe von 
Bildpunktwerten. Die Multimediakarte 100 komprimiert oder codiert die Bildpunktwerte gemaB einem Bfldco- 
dierungsstandard, beispielsweise MPEG, JPEG oder H324, der in der Firmware implementiert ist, die durch den 
Multimedia-Prozessor 110 ausgefuhrt wird. Die codierten Bilddaten konnen dann uber einen Iokalen Bus 105 
zum Host-Computer ubertragen werden, und zwar zu einer Einrichtung, beispielsweise einer Ethernetkarte, die 
15 mit einem Iokalen Bus 105 gekoppelt ist, oder fur eine Obertragung auf einer Telefonleitung, die mit einem 
Kommunikations-DAC 148 gekoppelt ist, weiter codiert werden. 

Der Bild-DAC 134 wandeit eine Reihe von dighalen Abtastwerten vom Multimedia-Prozessor 110 in ein 
analoges Bildsignal bzw. Videosignal fur einen Bildmonitor oder ein Fernsehgerat urn. Der Bild-DAC 134 kann 
z. B. durch eine integrierte KS01 19-Schaltung, die bei Samsung Semiconductor, Inc. erhaltlich ist, gemaB einem 
20 NTSC- oder PAL-Bildstandard implementiert werden. Der Multimedia-Prozessor 110 kann die Reihe digitaler 
Abtastwerte fur den Bild-DAC 134 aufgrund von Daten erzeugen, die von dem Host-Computer, einer anderen 
Einrichtung, die mh dem Iokalen Bus 105 gekoppelt ist, einer Videokamera, die mit dem Bild- ADC 132 gekoppelt 
ist oder einer Telefonleitung empf angen werden, die mit dem Kommunikations-ADC 1 46 gekoppelt ist. 
Eine optionale Komponente der Multimediakarte 100 ist eine Grafik-Steuei^nrichtuiig 150, die den Iokalen 
25 Speicher 120 mit dem Multimedia-Prozessor 1 10 teih und ein BifdsignaTfur einen Videomonitor fur das Hostsy- 
stem bietet Die Grafiksteuereinrichtuhg'lSO kann z. B. durch eine Super-VGA-Grafiksteuereinriahtung imple- 
mentiert werden, die von verschiedenen Handlern und Herstellern, beispielsweise Cirrus Logic, S3 oder Trident 
Microsystems erhaltlich ist Der Multimedia-Prozessor 110 erzeugt Bfldpunktabbildungen in einem Iokalen 
Speicher 120 und speichert sie dort, wovon die Grafik-Steuereinrichtung 150 ein Bildsignal fur den Videomonitor 
30 erzeugt 

Der Ton- bzw. Audio-ADC 142 und der Audio- bzw. Ton-DAC 144 sind zum Eingeben und Ausgeben 
analoger Tonsignale. GemaB einem Aspekt emuliert die Multimediakarte 100 die Funktionen einer Ton- bzw. 
Soundkarte, beispielsweise der popularen "SoundBlaster*, und implementiert Tonsynthesefunktionen, wie bei- 
spielsweise eine Wavetablebzw. Wellentabellensynthese und eine FM-Synthese. Fur Tonkartenemulationen 
bzw. Soundkartenemulationen stellt ein Anwendungsprogramm, das durch den Hostcomputer ausgefuhrt wird, 
Daten bereit, die einen Ton darstellen, und der Multimedia-Prozessor 1 10 erzeugt Tonamplituden entsprechend 
dieser Daten. Der Ton-DAC 144 wandeit die Tonamplituden fur einen Lautsprecher oder Verstarker in ein 
analoges Tonsignal um. Der Multimedia-Prozessor 110 handhabt in ahnlicher Weise eingegebene Tonsignale 
vom Ton- ADC 142. . . 

Der Kommunikations-ADC 146 tastet ein analoges Signal von einer Telefonleitung ab und bietet digitahsxerte 
Abtastwerte fur den Multimedia-Prozessor 110. Wie der Multimedia-Prozessor 110 die digitalisierten Abtast- 
werte verarbeitet, hangt von der Funktion ab, die in der Firmware implementiert ist Z. B. kann der Multimedia- 
Prozessor 110 Modemfunktionen durch Ausfuhrungsprogramme in Firmware implementieren, die eine V34-De- 
modulation der Abtastwerte und eine V.42 bis Fehlerkorrektur und -dekomprimierung durchfuhren. Der Multi- 
45 media-Prozessor 110 knrtn auch Daten kompremieren, die vom Hostcomputer empfangen werden und digitale 
Abtastwerte zum Darstellen eines korrekt modulierten analogen'Signals zum Obertragen durch den Kommuni- 
kations-D AC 148 erzeugen. Ahnlich kann der Multimedia-Prozessor 110 eine Antwortmaschine, Fax oder 
Bildtelefon-Funktionen unter Verwendung der gleichen Hardware (ADC 146 und DAC 148) als der Schnittstelle 
zu den Telef onleitungen implementieren, falls eine geeignete Firmware oder Software verfugbar ist 
50 Fig, 2 stellt ein Blockdiagramm eines Ausfuhrungsbeispiels des Muhnnedia-Prozessors 110 dar. Der Multime- 
dia-Prozessor 110 umfafit einen Verarbeitungskern bzw. Prozessingkern 200, der einen Universal-Prozessor 210 
und einen Vektorprozessor 220 enthalt Wie er hier verwendet wird, bezieht sich der Ausdruck Vektorprozessor 
auf einen Prozessor, der Anweisungen mit Vektoroperanden ausffihrt, d. h. Operanden, die jeweils mehrere 
Datenelemente des gleichen Typs enthalten. Jeder, der Universal-Prozessor 210 und der Vektorprozessor 220 
55 fuhrt einen getrennten Programmteflcode aus und kann ein Skalarrechner bzw. Skalarprozessor oder ein 
Superskalarprozessor sein. 

Bei dem beispielhaften Ausfuhrungsbeispiel ist der Universal-Prozessor 210 ein 32-Bit-RISC-Prozessor, der 
mit 40 MHz betrieben wird und dem Standard-ARM7-Anweisungssatz angepaBt ist Die Architektur fur einen 
ARM7-RISC-Prozessor und den ARM7-Anweisungssatz ist in dem ARM7DM-Datenblatt beschrieben, das von 

60 Advanced RISC Machines Ltd. erhaltlich ist Der Universal-Prozessor 210 implementiert auch eine Erweiterung 
des ARM7-Anweisungssatzes, die Anweisungen bzw. Befehle fur eine Schnittstelle mit dem Vektorprozessor 
220 umfaBt Die gemeinsam anhangige Patentanmeldung mit dem Titel "System and Method for Handling 
Software Interrupts with Argument Passing", die durch Bezugnahme aufgenommen wird, beschreibt die Erwei- 
terung des ARM7-Anweisungssatzes fur das beispielhafte Ausfuhrungsbeispiel der Erflndung. Der Universal- 

65 Prozessor 210 ist uber einen Steuerbus 212 mit dem Vektorprozessor 220 verbunden, um die Erweiterung des 
ARM7-Anweisungssatzes auszufuhren. Ferner wird eine Unterbrediungsleitung bzw. Interruptleitung 222 
durch den Vektorprozessor 220 verwendet, um eine Unterbrechung bzw. einen Interrupt am Universal-Prozes- 
sor 210 abzufragen. 



35 



40 



4 



0 DE 197 35 981 

Der Vektorprozessor 220 weist eine SIMD-{Einzelanweisungmehrf ache Daten)-Architektur auf und handhabt 
sowohl ska! are als aucfa vektorielle GroBen. Beim beispielfaaften Ausfuhrungsbeispiel besteht der Vektorprozes- 
sor 220 aus einer RlSC-Zentrafrerarbeitungseinheit bzw. RISC-Zentraleinbeit im Pipelinebetrieb, die mit 
80 MHz betrieben wird und eine 288-Bit- Vektoraufzeichnungsdatei bzw. -Vektorregisterdatei aufweisL Jedes 
Vektorregister in der Vektorregisterdatei kann bis zu 32 Datenelemente enthalten. Tabeile 1 stellt die Datenty- 
pen dar, die fur Datenelemente innerbalb eines Vektors gestutzt werden. 

TabeUe 1 



Datentyp 


DatengroBe 


Interpretation 


nt8 


8 Bit 


8— Bit-2 *er Komplement-Ganzzahl 




f Bvte) 


zwischen -128 und 127 


int9 


y Dlt 






(oyxey ) 




intl6 


16 Bit 


16-Bit-2\er Komplement 




(Halbwort) 


zwischen -32.7 68 und 32.161. 


int32 


32 Bit 


32-Bit.-2-er Kompl-ement-Ganzzahl 
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Daher kann ein Vektorregister zweiunddreiBig 8-Bit- oder 9-Bit-GanzzahI-DateneIemente, sechzehn 16-Bit- 
Ganzzahl-Datenelemente oder acht 32-Bit-GanzzahI- oder Gleitpunktelemente halted. Zudem kann das bei- 
spielhafte Ausfuhrungsbeispiel auch mit einem 576-Bit- Vektor-Operanden arbeiten, der zwei Vektorregister 
aufspannt 

Der Anweisungssatz fur den Vektorprozessor 220 umfaBt Anweisungen zum Handhaben von Vektoren und 
zum Manipulieren von Skalaren. Die Patentanmeldung mit dem Titel "Einzelbefehl-Mehrdaten-Verarbeitung 
bei einem Multimedia-Signalprozessor", die durch Bezugnahme eingescblossen wird, beschreibt den Anwei- 
sungssatz fur das beispielhafte Ausfuhrungsbeispiel und einen Aufbau bzw. eine Archkektur zum Implementie- 
ren des Anweisungssatzes. J. 

Das Cache-Untersystem 230 enthalt einen SRAM-BIock 260, der graphisch als zwei Blocke dargestellt ist, ein 
ROM 270 und eine Cache-Steuereinrichtung 280. Das Cache-Untersystem 230 kann den SRAM- Block 260 in (i) 
einen Anweisungs-Cache 262 und einen Daten-Cache 264 fur den Universal-Prozessor 210 und (ii) einen 
Anweisungs-Cache 292 und einen Daten-Cache 294 fur den Vektorprozessor 220 konfigurieren. Ein En-Chip- 
ROM 270, der Daten und Anweisungen fur den allgemeinen Prozessor 210 und den Vektorprozessor 220 enthadt, 
kann aucfa als ein Cache konfiguriert werden. Beim beispielhaften Ausfuhrungsbeispiel enthalt das ROM 270: 
Rucksetz- bzw. Reset- und Initiafisierungs- bzw. fiinleitungs-Prozeduren; Selbstuberprufungs-Diagnoseproze- 
duren; Handhabungsmittel fur einen Interrupt und eine Ausnahme; und Unterprogramme fur eine Soundblaster- 
Emulierung; Subroutinen bzw. Unterprogramme fur eine V. 34-Modem-Signalverarbeitung; aOgemeine Telefo- 
nierfunktionen; 2-dimensionale und 3-dimensionale Graphik-Unterprogrammbibliotheken; und Unterpro- 
gramm-Bibliotheken fur Ton- und Bild- bzw. Video- Standards, wie beispielsweise MPEG-1, MPEG-2, K261, 
HJ263, G J28 und G.723. 

Fig. 3 verdeutlicht die Beziehungen zwischen Hardware und Software oder Firmware bei einer Anwendung 
der Multimediakarte 100 in einem Host-Computersystem 300. Das Host-Computersystem 300 weist einen 
primaren Prozessor 310 auf, der Programme ausfuhrt, die in einem Hauptspeicher 320 abgespeichert sind Bei 
dem beispielhaften Ausfuhrungsbeispiel ist das Host-Computersystem 300 ein IBM-kompatibler Personalcom- 
puter, der einen Microprozessor vom Typ x86 einschlieBt, und die Programme, die durch das Host-Computersy- 
stem 300 ausgefuhrt werden, umfassen ein Anwendungsprogramm 330, das unter einem Betriebssystem, wie 
beispielsweise Windows™ 95 oder NT lauft Das Anwendungsprogramm 330 kann mit der Multimediakarte 100 
uber Einheiten- bzw. Einrichtungstreiber 342 kommunizieren. Die Einrichtungstreiber 342 sind dem Einrichtun- 
gstreiber API des Betriebssystems angepaBt 

Die Einrichtungstreiber werden typischerweise mit jeder Multimediakarte 100 bereitgestellt, da verschiedene 
Ausfuhrungsbeispiele von Multimediakarten 100 verschiedene Hardwareimplementierungen aufweisen konnen, 
wie beispielsweise sich unterscheidende Registerabbildungen und Interruptlevels bzw. Unterbrechungspriorita- 
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ten. Die Einrichtungstreiber mussen die Steuersignaie, die beim bestimmten Ausfuhrungsbeispiel iter Multime- 
diakarte 100 benotigt werden, geeignet in die Steuersignaie transformieren bzw. umwandeln, wie dies durch den 
Einricbtungstreiber API des Betriebssystems bes timm t wird. Typischerweise wird das Betriebssystem emen fur 
jede Einrichtung verschiedenen Einricbtungstreiber, wie beispielsweise einem Modemtreiber, einem Graphi- 
kreiber und einen Tontreiber erwartea So sind typischerweise drei getrennte Einricbtungstreiber fur das 
Betriebssystem erforderfich, falls ein Ausfuhrungsbeispiel der Mulrimediakarte 100 die Funkuonahtat einer 
Tonkarte bzw. Audiokarte, eines Modems und einer Grap h ikk ar te kombiniert ^ 

Der Universal-Prozessor 210 im Multimedia-Prozessor 110 fuhrt ein Echtzeit-Betnebssystem 360 aus, das 
Kommunikationen bzw. Nachrichtenubermittlungen mit Einrichtungstreibern 342 steuert Der Universal-Pro- 
zessoren 21 fuhrt auch allgemeine Aufgaben 370 aus. Der Vektorprozessor 220 fuhrt Vektorauf gaben 380 aus. 

Das Cache-Untersystem 230 (Fig. 2) koppelt auch allgemeine Prozessoren 210 und emen Vektorprozessor 220 
mit zwei Systembussen: IOBUS 240 und FBUS 25a IOBUS 240 wird typischerweise mh einer genngeren 
Frequenz als der FBUS 250 betrieben. Einrichtungen mh einer geringeren Geschwindigkeit werden an den 
IOBUS 240 gekoppelt, wahrend Einrichtungen mit einer hdheren Geschwindigkeit mit dem FBUS 250 gekoppelt 
werden. Durch Trennen der Einrichtungen mit geringerer Geschwindigkeit von den Einrichtungen mit hdherer 
Geschwindigkeit, werden die Einrichtungen mit geringer Geschwindigkeit gehindert, ubermaflig auf die Lei- 
stungsf ahigkeit der Einrichtungen mit hdherer Geschwindigkeit einzuwirken. 

Das Cache-Untersystem 230 dient auch als eine Schalttafel bzw. eine Schaltplatte fur erne Kommunikation 
zwischen dem IOBUS 240, dem FBUS 250, dem allgemeinen Prozessor 210 und dem Vektorprozessor 220-Bei 
den meisten Ausfuhrungsbeispielen vom Cache-Intersystem 230 sind mehrere gleichzeitige Zugriffe s zwischen 
den Bussen und Prozessoren moglich. Z. B. ist der Vektorprozessor 220 in der Lage, mit dem FBUS 250 zur 
gleichen Zeh zu kommunizieren, zu der der Universal-Prozessor 210 mit dem IOBUS 240 kommumziert Bei 
einem Ausfuhrungsbeispiel der Erflndung wird die Kombination der Schaltplatte und der Cachefunktion durch 
das Verwenden von direkten AbMdungstechniken fur FBUS 250 und IOBUS 240 erzieit Insbesondere kann auf 
die Einrichtungen am FBUS 250 und am IOBUS 240 durch denUnrverSal-Prozessor 210 und den Vektorprozes- 
sor 220 mittels Standard-Speicheflesevorgangen und Standard-Speicheftchreibvorgangen 5ei geeigneten 

Adressen zugegriffen werden. . -t_i.it e« n a u a 

Fi* 5 stellt die Speicherabbfldung von einem Ausfuhrungsbeispiel dar. Em Speicherblock 510, d. Hu der 
Adressraum von der Byteadresse Null zur Adress 4M-1 wird durch das ROM 270 belegt (Die Emheiten M und 
G die in dieser Beschreibung als Einheiten fur Speicheradressen verwendet werden, stehen fur die Zahlen 
1 048576 fd. h. 1024»1024) und 1.073.741.824 (d. h. 1024*1024» 1024)). Ein Speicherblock 520, d. h. der AdreOTaum 
von einer Byte-Adress 4M bis 8M-1 wird durch einen SRAM-Block 260 belegt. Ein Speicherblock 530, cL h. der 
Adressraum von einer Byte-Adresse 8M zu einer Adresse 72M-1 wird durch einen lokalen Speicher 120 belegt 
Die Einrichtungen am FBUS 250 werden auf einen Speicherblock 540 abgebildet, der nach einer Byte-Adresse 
72M beginnt und sich zu einer Byte-Adresse 77M erstreckL Ein Speicherblock 550 wird fur erne zukunf&ge 
Erweiterung reserviert Die Einrichtungen am IOBUS 240 werden auf einen Speicherblock 560 abgebildet, der 
nach einer Byte-Adresse 125M beginnt und sich zu einer Byte-Adresse 128 M-l erstreckt Em Speicherblock 570 
wird auch fur eine zukunftige Erweiterung reserviert Ein Speicherblock 580, d h. der Adressraum von einer 
Byte-Adresse 2G bis zu einer Adresse 4G-1 wird durch andere Host-Computereinnchtungen belegt und em 
Zugriff erf olgt typischerweise uber eine iokale Busschnittstelle bzw. Schnittstelle 255 fur den lokalen Bus. 

Der FBUS 250 (Fig. 2) steht mit einer Speichersteuereinrichtung 258, einer DMA-Steuereinncfatung 257, emer 
Schnittstelle 255 fur einen lokalen Bus und einer Einricfatungsschnittstelle 252 in Verbindung, die entsprechend 
SchnittsteOen fur einen lokalen Speicher 120, einen lokalen Bus 105 und Wandler 132, 134, 142, 144, 146, 148 und 
150 bereitsteilt, wie dies in Fig. 1 dargesteflt ist _ 

Die Speichersteuereinrichtung 258 steuert Lesevorgange und Schreibvorgange am lokalen Speicber 120. 
Beim beispielhaften Ausfuhrungsbeispiel steuert die Speichersteuereinrichtung 258 erne Bank synchroner 
DRAMs (zwei IM x 16-SDRAM-Chips), die konfiguriert sind, 24 bis 26 Adressbit und 32 Datenbit zu verwenden 
und die Merkmale aufweisen: fi) ein 'CAS-vor-RAS^-AuffrischungsprotokolI, das mit emer programmerbaren 
Auffrischrate durchgefuhrt werden kann, (ii) teilweise Schreibvorgange, die L^e-McKiifiaere-Sc^eib^peratio- 
nen einleiten und (in) eine interne Bankverschachtelung bzw. ein internes Bank-Interleaving. Die Speichersteuer- 
einrichtung 258 bietet auch eine 1 : 1-Frequenzanpassung zwischen Speicher 120 und FBUS 250, erne manueUe 
"Vorladung beider Banke" und Adress- und Daten-Warteschlangenvorgange zum besseren Nutzen des FBUS 
250. Bekannt ist, daB synchrone DRAMs bei solchen Frequenzen (80 MHz) effektiv bemeben werden und 
Standard-Fastpage- bzw. Standard-Schnellseiten-DRAMs und erweiterte Datenausgabe-(EDO>DRAMs auch 
verwendet werden konnen. DRAM-Steuereinrichtungen mit Fahigkeiten ahnlich zu emer Speichersteuerem- 
richtung 258 beim beispielhaften Ausfuhrungsbeispiel sind in der Technik bekannt 

Die DRAM-Steuereinrichtung 257 steuert Direkt-Speicherzugriffe zwischen dem Hauptspeicher des Host- 
computers und dem lokalen Speicher eines Mukimedia-Prozessors 200. Solche DMA-Steueremnchtungen sind 
in der Technik bekannt Bei einigen Ausfuhrungsbeispielen ist eine Einrichtung fur erne Speicherdatenbewegung 
eingeschlossen. Die Einrichtung zur Speicherdatenbewegung fuhrt einen DMA (direkten SpeicherzugnfF) von 
einem Block des Speichers zu einem anderen Block des Speichers. . 

Die Schnittstelle 255 fur den lokalen Bus implementiert das erforderliche Protokoll fur Konunumkauonen 
zwischen dem Hostcomputer uber den lokalen Bus 105. Beim beispielhaften Ausfuhrungsbeispie^ i bietet die 
Schnittstelle 255 fur den lokalen Bus eine Schnittstelle zu einem 33-MHz-32-Bit-PCI-Bus. Solche Schnittstellen 
sind in der Technik bekannt . . , * , . . , 

Die EinrichtungsschnittsteUe 252 bietet eine Hardwareschnittstelle fur Einrichtungen wie beispiefcweise 
Wandler 132, 134, 142, 144, 146, 148 und 150, die typischerweise auf einer Leiterplatte mit dem Mutamedia-Pro- 
zessor 110 voriiegen. Die EinrichtungsschnittsteUe 252 kann fur die bestimmte Anwendung des Mulumedia-Pro- 
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zessors 110 anwendungsspezifisch angepaBt werden. Insbesondere kdnnte die Einrichtungsschnittstelle 252 nur 
eine Scfanittstelle fur bestimmte Einrichtungen oder ICs bieten. Typische Einbeiten innerhalb der Einrichtun- 
gsschnittstelle 252 bieten eine Schnittstelle fur eine Verbindung zu Standard-ADCs, DACs oder CODECs. 
Entwurfe bzw. Aufbauformen fur ADC-, DAC- und CODEC-Schnittstellen sind in der Technik bekannt und 
werden hier nicht weiter beschrieben. Andere SchnittsteUen, die verwendet werden konnten, konnen eme 
ISDN-Schnittstelle fur ein digitales Telefon und SchnittsteUen fur Busse, beispieisweise fur einen MicroChannel- 
Bus umfassen, sind darauf aber nicht beschrankt Bei einem Ausfuhrungsbeispiel des Multimedia-Prozessors 110 
ist die Einrichtungsschnittstelle 252 ein ASIC, der programmiert werden kann, um eine gewunschte Funktionali- 
tat auszufuhren bzw. zu bieten. . , „ _ ... roftlxl3 v 

Der IOBUS 240 wird mit einer Frequenz (40 MHz) betneben, die germger als die Betnebsfrequenz (80 MHz) 
des Busses 250 ist Mit dem IOBUS 240 sind ein Systemtaktgeber 242, ein UART (universelle asynchrone 
Empfanger-Sendereinheit) 243, ein Bitstrom-Prozessor 248 und eine Intemipt-Steueremrichtung 245 gekoppelt 
Der Systemtaktgeber 242 unterbricht den Prozessor 210 bei nominellen bzw. planmaBigen Zekmtervallen, die 
durch Schreiben in Register ausgewahlt werden, die dem Systemzeitgeber 242 zugeordnet sind Beun beispiel- 
haften Ausfuhrungsbeispiel ist der Systemzeitgeber 242 ein Standard-Intel-8254-kompatibler Intervallzeitgeber 
mit drei unabhangigen 16-Bit-Zahlern und sechs programmierbaren Zahlerbetriebsarten. 

UART 243 ist eine serielle Schnittstelle, die zu der bekannten bzw. allgemein verwendeten integnerten 
16450-UART-SchaItung kompatibel ist und dient fur eine Anwendung bei Modem- oder Faxanwendungen, die 
einen serieUen Standard-Kommunikations-CCOM")- AnschluB eines Personaicomputers erforderlich machen. 

Der Bitstromprozessor 245 ist ein fester Hardwareprozessor, der bestimmte Funktionen an einem Eingabe- 
oder Ausgabe-Bitstrom ausfuhrt Beim beispielhaften Ausfuhrungsbeispiel fuhrt der Bitstrom-Prozessor 245 
anfangliche oder abschlieBende Stufen einer MPEG-Codierung oder -Decodierung durch. Insbesondere fuhrt 
der Bitstrom-Prozessor 245 eine Codierung und Decodierung mit variabler Lange durch (Huffman) und ein 
Packen bzw. Entpacken von Bilddaten in einem "zick-zack^Format Der Bitstrom-Prozessor 245 wird parallel 
zum Universal-Prozessor 210 und dem Vektorprozessor 220 betrieben und davon gesteuert Die-Prozessoren 
210 und 220 konfigurieren den Bitstrom-Prozessor 245 uber Steuerregister. Die ebenfalls anbangige Patentan- 
meldung mit dem Titel "Verfahren und Vorrichtung zum Verarbeiten von Videodaten", die durch Bezug aufge- 
nommen wird, beschreibt ein beispielhaftes Ausfuhrungsbeispiel eines Bitstrom-Prozessors 245. 

Die Interrupt-Steuereinrichtung 248 bzw. Unterbrechungssteuereinrichtung steuert Unterbrechungen bzw. 
Interrupts des Universal-Prozessors 210 und unterstutzt viele Interruptprioritaten. Ein Maskenregister wird 
bereitgestelh, um zu ermoglichen, daB jede Interruptprioritat individuell maskiert wird. Beim beispielhaften 
Ausfuhrungsbeispiel ist die interrupt-Steuereinrichtung 245 programmierbar und implementiert das Standard- 
Intel-8259-Interruptsystem, das bei x86-PersonaIcomputern ublich ist Ein Interrupt mit hochster Priontat (Stuf e 
0) wird dem Systemzeitgeber 242 zugewiesen. Prioritatsstufen 1, % 3 und 7 werden entsprechend einem virtuel- 
len VoUbUd- bzw. Frame-Puffer, einer DMA-Steuereinrichtung 257 und einer Einrichtungsschnittstelle 252, 
einem Bitstrom-Prozessor 245, einer Schnittstelle 255 fur den Iokalen Bus und dem UART 243 zugewiesen. 
Interrupt-Prioritatsstufen 4, 5 und 6 sind bei dem beispielhaften Ausfuhrungsbeispiel nicht zugewiesen. Der 
virtuefle Frame-Puffer, der bei einigen Ausfuhrungsbeispielen eingeschlossen ist, emuliert bei der Prioritatsstufe 
1 einen Standard-VGA-Frame-Puffer bzw- -Vollbildpuffer. . o . . 

Fig. 4 stellt ein Blockdiagramm des Cache-Untersystems 230 dar. Ein SRAM-BIock 260 ist m vier Speicher- 
banke aufgeteilt, um einen Anweisungscache 262 und einen Datencache 264 fur eine Anwendung mit dem 
allgemeinen Prozessor 210 wie auch einen Anweisungscache 292 und einen Datencache 294 fur eine Anwendung 
mit dem Vektorprozessor 220 auszubilden. Der SRAM-BIock 260 enthalt auch einen Identifizierungszeichen- 
bzw Kennzeichenabschnitt 406, der fur jede der Speicherbanke unj,er-unterte0t ist Der SRAM-BIock 260 ist 
eine Speicherschaltung mh zwei Anschlussen, mit einem LeseanschluB 440 und einem SchreibanschluB 430, so 
daB ein gleichzeWges Lesen und Schreiben des SRAM-Blocks 260 unterstutzt wird. Das Cache-Untersystem 230 
enthalt auch ein ROM-Cache 270 mit einem Kennzeichen-Feld 472. Wie vorstehend eriautert, enthalt der 
ROM-Cacfaespeicher 270 haufig verwendete Anweisungen und Daten fur den allgemeinen Prozessor 210 und 
den Vektorprozessor 220. Obwohl das Kennzeichen-Feld 472 nicht modifiziert werden kann, konnen einzelne 
Adressen als ungultig markiert werden, so daB diese Daten oder Anweisungen aus dem Speicber gebracht 
werden konnen, um anstelle der Daten oder Anweisungen im ROM 270 verwendet zu werden. 

Eine Datenpipeline 410 fuhrt die Daten-Schalttafei-Funktion des Cache-Untersystems 230 aus. Die Datenpi- 
peline 410 kann mehrere simultane bzw. gleichzeitige Datenkommunikationswege zwischen dem IOBUS 240, 
dem FBUS 250, dem Universal-Prozessor 210, dem Vektorprozessor 220 und dem SRAM-BIock 260 erzeugen. 
Ahnlich fuhrt die Adresspipeline 420 Schalttafelfunktionen fur Adressen aus. Beim Ausfuhrungsbeispiel der 
Fig. 4 verwenden IOBUS 240 und FBUS 250 einen Zeitmultiplexbetrieb fur AdreB- und Datensignale. Die 
Cachesteuerung 280 stellt die Steuerleitungen zur Datenpipeline 410 und zur Adresspipeline 420 bereit, um die 
Kommunikationskanalegeeignetzu konfigurieren. 

Bei irgendeinem Ausfuhrungsbeispiel des Cache-Untersystems 230 wird ein ProtokoU, das auf einem Vorgang 
bzw. einer Transaktion beruht, verwendet, um alle Lese- und Schreibvorgange zu unterstutzen. Irgendeme 
Einheit, die mit dem Cache-Untersystem 230 gekoppelt ist, wie der aUgemeine Prozessor 210, der Vektorprozes- 
sor 220 oder die verschiedenen Einrichtungen an IOBUS 240 und FBUS 250 kann eme Aufforderung an das 
Cache-Untersystem 230 setzen. Eine solche Aufforderung wird durch einen Einrichtungs-Identifizierungscode 
^Einrichtungs-ID ,, ) und eine Adresse der aufgeforderten bzw. abgefragten Speicherstelle ausgebildet. Jede 
Einheit weist eine getrennte Einrichtungs-ID auf, und das Cache-Untersystem 230 kann die Aufforderungen bzw. 
Anfragen auf der Einrichtungs-ID der Einheit, die die Abfrage durchfuhrt, beruhend hinsichtlich der Pnontat 
einteilen. Wenn die Daten bei der abgefragten Adresse verfugbar werden, antwortet das Cache-Untersystem mit 
der Einrichtungs-ID, einem Transaktions- bzw. Vorgangs-Identifizierungscode (Transaktions-ID"), der Adresse 
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und den abgefragten Daten. Falls die angeforderte bzw. abgefragte Adresse nicht im SRAM-Block 260 oder 
ROM 270 enthalten ist, ist das Cache-Untersystem 230 nicht fiber mehrere Taktzyklen in der Lage, auf die 
bestimmte Aufforderung zu antworten, wahrend die Daten bei der Speicheradresse zuruckbekommen werden. 
Wahrend die Daten einer ersten Aufforderung zuruckbekommen werden, ist das Cache-Untersystem 230 jedoch 
in der Lage, eine zweite Aufforderung von einer dazu verschiedenen Einhert mit einer verscbiedenen Einrich- 
tungs-ID zu verarbeiteiL Auf diese Art und Weise blockdert eine anhangige Aufforderung nachfolgende Auffor- 
derungen von anderen Einheiten nicht Ferner kann das Cache-Untersystem 230 eine Leseaufforderung und eine 
Schreibaufforderung gleichzeitig in einem einzelnen Zyklus handhaben. 

Wie vorstehend erlautert ist der SRAM-Block 260 in vier Speicberbanke aufgeteilt Der SRAM-Block 260 
weist zwei Eingange bzw. Anschlusse auf, d h. er weist einen LeseanschluB 440 und einen SchreibanschiuB 430 
auf, so daB der SRAM-Block 260 bei irgendeinem Zyidus one Leseaufforderung und eine Schreibaufforderung 
annehmen Der Kennzeichen-Abschnitt 406 des SRAM-BIocks 260 muB zwei Leseanschlusse aufweisen, 
um die gleichzeitigen Lese- und Schreibaufforderungen zu unterstutzen. Daher kdnnen die Adresse, die beim 
LeseanschluB 440 verwendet wird, wie auch die Adresse, die beim SchreibanschiuB 430 verwendet wird, mit 
internen Cache-Kennzeichen fur Treffer- oder Fehlbedingungen gleichzeitig vergiichen werden. Der Kennzei- 
chen-Abschnitt 406 enthalt auch einen getrennten SchreibanschiuB, so daB die geeigneten Kennzeichenfelder 
auch geandert werden kdnnen, wahrend die Schreibaufforderung am SchreibanschiuB 430 durchgefuhrt wird. 

Abhangif 11^ kann d^s Cache^Wntfersystem 230 mit entweder 

Schreib-Zurfick- oder Schreib-Durch-Cacheprinzipien bzw. -grundsatzen verwendet werden. Ferner kann die 
Cache-ZeiIengr6Be bei einigen Ausffihrungsbeispielen zum weiteren Erhdhen der Geschwindigkeit zweimal so 
groB wie die Datenbreite gemacht werden. Bei diesen Ausfuhrungsbeispielen muB fur "Systemverwal- 
tungs*-Zwecke jede Cachezeile zwei gultigen Bit und zwei Speichermarken bzw. Dirtybk zugewiesen werden, 
da jede Cachezeile zwei Vektoren enthalt. Der SRAM-Block 260 sollte also global alle gultigen Bit loschen, falls 
ein glob ales Loschsignal empfangen wird. Bei anderen Ausfuhrungsbeispielen werden individuelle bzw. einzelne 
Loschsignale fur j ede Bank im SRAM-Block 260 unterstutzt: ~* - - _ 

Fig. 6 ist ein Blockdiagramm ernes Ausffihrungsbeispiels einer DatenpipeHhe 410. Da das Cache-Untersystem 
230 sowohl ein Cachesystem als auch eine Schalttafel fur den IOBUS 240, den FBUS 250, den Universai-Prozes- 
sor 210 und den Vektorprozessor 220 ist, sollten die Busse und der Prozessor in der Lage sein, entweder durch 
den Cache oder direkt zu kommunizieren, falls der Cachespeicher durch eine andere Einrichtung verwendet 
wird. Die Prozessoren sind im allgemeinen schneller als die Einrichtungen an den Bussen; daher werden die 
Prozessoren im allgemeinen den Cache bei Schreibvorgangen verwenden und dem Cache-Ruckschreibsystem 
ermoglichen, die Daten auf die geeignete Buseinrichtung zu setzen. Ahnlich fordern die Prozessoren allgemeine 
Aufforderungsinformationen eher vom Cache als direkt von den Einrichtungen. Falls der Cachespeicher die 
aufgeforderten Daten nicht enthalt, verlassen sich die Prozessoren typischerweise auf das Cache-Untersystem, 
um die angeforderten Daten in den Cachespeicher auszulesen und die Daten fur die Prozessoren zu erzeugen. 
Wenn der Cachespeicher jedoch besetzt ist bzw. tatig ist, kdnnen die Prozessoren direkt auf die Busse zugreifen. 

Daten werden vom Universal-Prozessor 210 fiber einen IOMUX 630 zum IOBUS 240 ubertragen. Daten vom 
IOBUS 240 zum Universal-Prozessor 210 laufen durch einen GP Lese MUX 620. Von entweder dem SRAM- 
Block 260 oder vom ROM 207 werden Daten zum Universal-Prozessor 210 fiber einen Cache-Lese-MUX 650 
und einen GP-Lese-MUX 620 ubertragen. Vom Universal-Prozessor 210 werden Daten zum SRAM-Block 260 
fiber einen Cache-Schreib-MUX 610 ubertragen. Der Cache-Lese-MUX 650, der Cache-Schreib-MUX 610, der 
IO-MUX 630 und der GP-Lese-MUX 620 konnen konventionelle Multiplexer sein und konnen interne Latche 
bzw. Zwischenspeicher oder Register enthalten, sofern dieses fur Zeitbeschrankungen erforderlich ist Die 
Ausfall-Steuerleitungen (nicht dargestellt) der Multiplexer werden durch die Cache-Steuereinrichtung 280 
(Fig* 4) vorgeschrieben. Vom Universal-Prozessor 210 werden Daten zum FBUS 250 fiber den Cache-Schreib- 
MUX 610 und den FBUS-MUX 640 ubertragen. Vom FBUS 250 werden Daten zum Universal-Prozessor 210 
kanalisiert fiber einen Puffer 660, einen Cache-Lese-MUX 650 und den GP-Lese-MUX 620 geffihrt. Um diese 
Funktionen auszufuhren, kann der Puffer 660 ein konventioneller Puffer, ein Latch oder ein Register sein. 

Der Universal-Prozessor 210 kann den Vektorprozessor 220 fiber Steuerleitungen 212 (Fig. 2) steuern. Eine 
direkte Datenubertragung zwischen dem Universal-Prozessor 210 und dem Vektorprozessor 220 ist im allge- 
meinen nicht erforderlich, kann aber fiber den SRAM-Block 260 oder irgendeine andere der Einrichtungen 
ermoglicht werden, da die beiden Prozessoren sich eine gemeinsame SpeicherabbOdung teilen. 

Daten vom ROM 270 und SRAM-Block 260 wandern zum IOBUS 240 fiber den Cache-Lese-MUX 650 und 
den IO-MUX 630. Daten vom IOBUS 240 zum SRAM-Block 260 werden fiber den Cache-Schreib-MUX 610 
geffihrt Daten vom IOBUS 240 zum FBUS 250 werden durch den Cache-Schreib-MUX 610 und den FBUS- 
MUX 640 geffihrt Daten vom FBUS 250 ffir den IOBUS 240 werden durch den Zwischenspeicher bzw. Puffer 
660, den Cache-Lese-MUX 650 und den IO-MUX 630 geffihrt. Daten fur den IOBUS 240 vom Vektorprozessor 
220 werden durch den Cache-Schreib-MUX 610 und den- iO-MUX 630 geffihrt Daten vom IOBUS 240 zum 
Vektorprozessor 220 laufen durch den Cache-Lese-MUX 630. Bei einigen Ausfuhrungsbeispielen ist die direkte 
Pipeline bzw. Richtungspipeline fur Daten vom Vektorjrczessor 220 zum IOBUS 240 zum Vereinfachen des 
Aufbaus der. Datenpipeline 410 weggelassen. Da die Bandbreite des Vektorprozessors 220 viel groBer als die 
Bandbreite des IOBUS 240 ist, wird ein direkter Kommunikationsweg vom Vektorprozessor 220 zum IOBUS 
240 hinsichtlich der Verarbeitungszeit des Vektorprozessors 220 sehr ineffektiv. 

Daten vom SRAM-Block 260 und ROM 270 fur den FBUS 250 laufen durch den Cache-Lese-MUX 650 und 
den FBUS-MUX 640. Daten vom FBUS 250 zum SRAM-Block 260 laufen durch den Puffer 660 und den 
Cache-Schreib-MUX 610. Daten vom FBUS 250 konnen den Vektorprozessor 220 fiber den Puffer 660 und den 
Cache-Lese-MUX 650 direkt erreichea Daten ffir den FBUS 250 konnen vom Vektorprozessor 220 auch direkt 
fiber den Cache-Schreib-MUX 610 und den FBUS-MUX 640 kommen. 
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Daten vom Vektorprozessor 220 wandern zum SRAM-BIock 260 uber den Cache-Schreib-MUX 610. Daten 
vom SRAM-BIock 260 und vom ROM 270 werden durch den Cache-Lese-MUX 650 zum Vektorprozessor 220 
gefuhrL 

Fig- 7 ist ein detailliertes Blockdiagramm eines zweiten Ausfuhrungsbeispiels der Datenpipeline 410. Da die 
Funktionalitat des Ausfuhrungsbeispiels der Fig. 7 ahnlich der Funkrionalitat des Ausfuhrungsbeispiels der 5 
Fig. 6 ist, werden nur die Unterschiede zwischen den Ausfuhrungsbeispielen in Einzelheiten erortert Die 
ailgemeine Organisation der Elemente bei jedem Ausfuhrungsbeispiel wird jedoch auch beschrieben. In Fig. 7 ist 
der Cache-Lese-MUX 650 gegen den Cache-Lese-MUX 750 und einen MUX-Latch 751 bzw. MUX-Zwischen- 
speicher ausgetauscht Der Puffer 660 ist gegen einen Lese-Latch 760 ausgetauscht. Der FBUS-MUX 640 ist 
durch einen FBUS-MUX 740, ein Ruckschreib-{WB)-Dateniatch 741, einen Speicherschreib-Latch 742 und einen 10 
Speicherschreib-Latch 743 ersetzt Die Latche bzw. Zwiscfaenspeicher beim Ausfuhrungsbeispiel der Fig. 7 
werden zur Pipelineverarbeitung der Datenpipeline verwendet Der Cache-Schreib-MUX 610 wird gegen einen 
Cache-Schreib-MUX 710, einen Schreib-Daten-Latcb 712, eine Einrichtung zum Ausrichten 713 und einen IO- 
bzw. EIN/AUS-Schreib-Latch 711 ausgetauscht Der IO-MUX 630 wird durch einen IO- bzw. EIN/AUS-Lese- 
Latch 731 und einen IO- bzw. EIN/AUS-Lese-Latch 732 ausgetauscht Der GP-Lese-MUX 620 wird durch einen 15 
IO- bzw. EIN/AUS-Schreib-Latch 721 und einen Microcache 722 ersetzt 

Der Microcache 722 koppelt den Hauptcache, den SRAM-BIock 270 und das ROM 260 mit dem Universal- 
Prozessor 210. Der Microcache 722 ist in einen Micro- Anweisungscache und einen Micro- Dat en-Cache aufge- 
teilt, von denen jeder ein Kennzeichen-Teil 822 (Fig. 8% Etikett- bzw. Kennzeichen- Vergleicher und gultige Bit 
umf assen. Der Microcache 722 arbeitet als ein Vorabrufpiiffer. Die Adresse einer Aufforderung vom Universal- 20 
Prozessor 210 wird zuerst mit dem Kennzeichen-Teil 822 des Microcaches 722 verglichen. Falls beim Microca- 
che ein Fehlzustand auftritt (d h, keine Obereinstimmung innerhafb des Microcache-Kennzeichens 822 vor- 
liegtX wird die Adresse der Aufforderung mit der Adresse und einer anderen Steuerinfonnation zum Hauptca- 
che gesendet Um den Microcache 722 zu vereinfachen, mussen Obereinstimmungen eines Kennzeichens bei 
Datenschreibvorgangen vom Universal-Prozessor ini Microcache 722 die Microcacheadresse ungultig machen, 25 
so daB die geschriebenen Daten zum Hauptcache gesendet werden mussen. Auf diese Art und Weise kann ein 
Cachezusammenhang ohne komplexe Ruckscfareib- oder Schreibvorgange durch Aufbauformen am Microcache 
722 beibehalten werden. 

Fig. 8 stelit ein Blockdiagramm eines Ausfuhrungsbeispiels der Adresspipeline 420 dan Die FBUS-Schnittstel- 
le 850 besteht aus einer Adressenwarteschlange fur vier Eintragen und einem Ruckschreiblatch. Die FBUS- 30 
Schnittstelle 850 kann gleichzeitig ein anhangiges Lesen vom Anweisungscache 662, ein anhangiges Lesen vom 
Anweisungscache 292, eine Schreibaufforderung vom Datencache 294 und eine Ruckschreibaufforderung vom 
Datencache 294 unterstutzen. Die Adressen fur Scfareibaufforderungen werden zum Schreib-Adress-MUX 810 
gesendet, wahrend die Adressen fur Leseaufforderungen zum Lese-Adress-MUX 820 gesendet werden. Die 
Cachesteuereinrichtung 280 (Fig. 2) fuhrt eine Arbitration bzw. Entscheidung zwischen Aufforderungen vom 35 
Universal-Prozessor 210, vom Vektorprozessor 220, vom IOBUS 240 und vom FBUS 250 aufgrund der Einrich- 
tungs-ID der Aufforderung durch. Die Cachesteuerung 280 konfiguriert dann die verschiedenen Multiplexer der 
Datenpipeline 410 und der Datenpipeline 420, um die Aufforderungen handzuhaben. Ein Arbitrationsschema 
bzw. Entscheidungsschema kann aufgrund einer Bestimmung oder Abscfaatzung der Wichtigkeit jeder Einrich- 
tung entschieden werden. Typischerweise wird dem Universal-Prozessor 210 die hochste Prioritat gegeben. Wie 40 
vorstehend erlautert, ist das Cache-Untersystem 230 in der Lage, Lese- und Schreibvorgange gleichzeitig 
durchzufuhren. Daher sind getrennte Vergleicher fur Lese- und SchreibaufForderungen erforderlich. Der Ver- 
gleicher 81 1 wird zum Vergleichen der Schreibadresse vom Schreib-Adre8-MUX 810 mit den Adressen verwen- 
det, die uber einen Schreib-Kennzeichen-Anschlufi 406-1 empfangen werden, um zu bestimmen, ob sich die 
Schreibadresse der momentanen Aufforderung im Cache befindet Falls sich die Adresse im Cache befindet, wird 45 
der Cachespeicher beim Zusammenpassen bzw. Abstimmen der Cachespeicherstelle mit den neuen Daten 
aktualisiert. Falls sich die Adresse nicht im Cache befindet, werden die Adresse und die Daten bei einer nicht 
verwendeten Cachestelle oder der Stefle in den Cachespeicher geschrieben, auf die unlangst zuletzt zugegriffen 
wurde. SchlieBIich werden die Daten zu der geeigneten, direkt abgebildeten Einrichtung unter Verwendung 
eines Ruckschreibens oder Schreibens durch Cachetechniken gesendet so 

Der Vergleicher 821 wird zum Vergleichen der Leseadresse der Leseaufforderungen vom Lese-Adress-MUX 
820 und der Adressen verwendet, die durch den Lese-Kennzeichen-AnschluB 406-2 empfangen werden. Falls ein 
Kennzeichen auf die Leseadressen abgestimmt ist bzw. mit denen ubereinstimmt, werden die Daten, die zu dem 
Kennzeichen gehoren, unter Verwendung der Datenpipeline 410 zur auffordernden Einrichtung gesendet Wie 
vorstehend erlautert, werden die Daten mit einer Einrichtungs-ID, einer Transaktions-ID und der angef orderten 55 
Adresse zuruckgegeben, falls das Transaktionsprotokoll verwendet wird. Falls keine Kennzeichen mit der 
Leseadresse ubereinstimmen* muB das Cache-Untersystem 230 die angeforderten Daten von der geeigneten 
Direktspeicherabbildungseinrichtung bzw. im Direktspeicher abgebildeten Einrichtung wiedergewinnen bzw. 
auslesen. Wenn die angeforderten Daten ausgelesen werden, werden die angeforderten Daten, die Einrichtungs- 
ID, die Transaktions-ID und die Adresse zur anfordemden Einrichtung gesendet Wahrend die Daten fur eine so 
erste Anforderung abgerufen werden, ist das Cache-Untersystem 230 in der Lage, einer zweiten Leseaufforde- 
rung zu dienen, so daB eine zweite Einrichtung, die den Cache benotigt, nicht durch die erste Einrichtung 
blockiert wird. 

Bei den verschiedenen Ausfuhrungsbeispielen des Aufbaus konnen auch andere Implemenderungen von 
Datenpipelines, Schalttafeln, Adresspipelines, Cache-Untersystemen, Multipiexern, Zwischenspeichern, Bussen, 65 
Prozessoren eta Anwendung finden und alternadve Merkmale konnen zum Erzeugen eines Digitalsignalprozes- 
sors verwendet werden. 
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Querverweise 

Dieses Patentdokument ist auf die nachfolgenden gleicfazeitig angemeldeten Patentanmeldungen in deren 
Gesamtheit bezogen und umfaBt diese: 

US. Pat-Annt-Nr. UNKNOWN1, Anwaitsdokument Nr. M-1355, mit dem Titel ^ingle-Instruction-Multiple- 

Data Processing in a Multimedia Signal Processor*; ^ _ . , 

U.S. Pat-AnnL-Nr. UNKNOWNS Anwaitsdokument Nr. M-4365, mit dem Titel "Efficient Context Saving and 

U?°lS Anwaitsdokument Nr. M-4366, mit dem Titel "System and Method for 

Handling Software Interrupts with Argument Passing"; 

US Pat-Annt-Nr. UNKNOWNS Anwaitsdokument Nr. M-4367, mit dem Titel "System and Method for 

Handling Interrupts and Exception Events in an Asymmetric MuWproce^r /a^t«^ture w , 

US. Pat-Annt-Nr. UNKNOWNS, Anwaitsdokument Nr. M-4368, nut dem Titel "Methods and Apparatus for 

U^^A^Sr? WKNOWN6, Anwaitsdokument Nr. M-4369, mit dem Titel -Single-Instruction-Multiple. 

US. Pav3^-Nr.Ut^^ mt dem Titel "Sm^e-Instruction-Multiple- 

Data Processing with Combined Scalar/V ector Operations". 

Patentanspruche 
1. Integrierter Digitalsignalprozessor, aufweisend: 

einen Universal-Prozessor (210); und _ ^ . 

einen Vektorprozessor (220), denparallel zum Universal-Prozessor betreibbar ist 

Z Integrierter Digitalsignalprozessor nach Anspruch 1, dadurch gekennzeichnet, daB der Universal-Prozes- 
sor (210) aufweist: 
einen Satz Skalarregister; 

eineAnweisungs-Decodiereinheitund . _ 
einen Verarbeitungskern (200) der eine Vielzahl skalarer Werte entsprechend Anweisungen manipuhert die 
mitteisderAnweisungs-Decodiereinlieitdecodiertwerden. 

3. Integrierter Digitalsignalprozessor nach Anspruch 1 oder 2, dadurch gekennzeichnet, daB der Vektorpro- 
zessor (220) aufweist: 

einen Satz Vektorregister; 

eine zweite Anweisungs-Decodiereinheit und , 

einen zweiten Verarbeitungskern, der eine Vielzahl von Vektorwerten entsprechend Anweisungen manipu- 
liert die durch die zweite Anweisungs-Decodiereinheit decodiert werden. 

4. Integrierter Digitalsignalprozessor nach einem der vorhergehenden Anspruche, ferner gekennzeichnet 

eS^Cache-Untersystem (230), das mit dem Universal-Prozessor (210) und dem Vektorprozessor (220) 
gekoppelt ist wobei das C^cbe-Untersyste^ jdj TT 

5. Integrierter Digitalsignalprozessor nach Anspruch 4, dadurch gekennzeichnet, daB das Cache-Untersy- 

stem (230) aufweist: 

einen Cache-LeseanschluB; und 

einen Cache-SchreibanschluB; ~* ^ , cu™k_ 

wobei das Cache-Untersystem gleichzeitige Zugnffe auf den Cache-LeseanschluB und den Cacbe-Scfareib- 
anschluB unterstutzt , . _ , D , ^ , T T 

6. Integrierter Digitalsignalprozessor nach Anspruch 4 oder 5, dadurch gekennzeichnet, daB das Cache-Un- 
tersystem (230) ferner aufweist: . . 
eine Datenpipeline (410X die mh dem Universal-Prozessor (210) und dem Vektorprozessor (220) gekoppelt 

Se^dresspipeline (420), die mit dem Universal-Prozessor (210) und dem Vektorprozessor (220) gekoppelt 
ist; und 

wobei der Speichercache aufweist: . 

einen SRAM-Cache, der mit der Datenpipeline und der Adresspipehne gekoppelt ist; und 

einen ROM-Cache, der mit der Datenpipeline und der Adresspipeline gekoppelt ist 

7. Integrierter Digitalsignalprozessor nach einem der Anspruche 4 bis 6, ferner gekennzeichnet durch: 
einen ersten Bus, der mit dem Cache-Untersystem (230) gekoppelt ist; und 

einen zweiten Bus, der mit dem Cache-Untersystem gekoppelt ist _ 

8. Integrierter Digitalsignalprozessor nach Anspruch 7, dadurch gekennzeichnet daB der erste Bus erne 
erste Bus-Bandbreite aufweist die grdSer als eine zweite Bus-Bandbreite des zweiten Busse ist 

9. Integrierter Digitalsignalprozessor nach Anspruch 7 oder 8, ferner gekennzeichnet durch: 
einen Bitstrom-Prozessor, der mit dem zweiten Bus gekoppelt ist; und 

eine Schnittstelle (255) fur einen lokalen Bus, die mit dem ersten Bus gekoppelt ist 

10. Integrierter Digitalsignalprozessor nach Anspruch 9, dadurch gekennzeichnet daB die Schnittstelle (2»j 
fur den lokalen Bus mit einem lokalen Bus eines primaren Prozessors eines Computersystems gekoppelt ist 

11. Prozessor nach Anspruch 9 oder 10, dadurch gekennzeichnet daB das Cache-Untersystem (230) zum 
Bereitstellen einer Vielzahl von Kommunikationsbahnen zwischen dem Vektorprozessor (220), dem Um- 
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versal-Prozessor (210), dem ersten Bus und dem zweiten Bus konfigurierbar ist 

12. Integrierter Digitalsignalprozessor nach einem der Anspruche 7 bis 11, dadurch gekennzeichnet, daB das 
Cache-Untersystem (230) uber eine erste Cacheaufforderung zugreifbar ist 

13. Integrierter Digitalsignalprozessor nach Anspruch 12, dadurch gekennzeichnet, daB das Cache-Untersy- 
stem (230) zum Annehmen einer zweiten Cache-Aufforderung vor dem AbschlieBen der ersten Cache-Auf- 
forderung in der Lage ist, fails zum AbschlieBen der ersten Cache-Aufforderung eine Vielzahl von Zyklen 
erf orderlich ist 
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